有毒内容是今天社交媒体平台最关键的问题之一。仅在2020年的印度拥有51800万社交媒体用户。为了为内容创造者及其观众提供良好的体验,这对销售毒性评论和发布的用户至关重要。但由于存在多个相同文本的多个表示,大挑战是识别低资源目录语言中的毒性。此外,社交媒体的职位/评论不遵守特定格式,语法或句子结构;这使得滥用检测的任务更具挑战性的多语种社交媒体平台。本文介绍了使用ShareChat / MoJ提供的数据提出的Team'Moj Masti'提出的系统,以\ emph {iiit-d多语言滥用评论识别}挑战。我们专注于我们如何利用基于多语言变压器的预训练和微调模型来接近代码混合/代码切换的分类任务。我们最好的表演系统是XLM-Roberta和Muril的集合,在测试数据/排行榜上实现了0.9的平均f-1分数。我们还通过添加音译数据观察到性能的增加。此外,使用弱元数据,合奏和一些后处理技术提升了我们的系统的性能,从而将我们1在排行榜上放置。
translated by 谷歌翻译